Lifelong learning aims to create AI systems that continuously and incrementally learn during a lifetime, similar to biological learning. Attempts so far have met problems, including catastrophic forgetting, interference among tasks, and the inability to exploit previous knowledge. While considerable research has focused on learning multiple input distributions, typically in classification, lifelong reinforcement learning (LRL) must also deal with variations in the state and transition distributions, and in the reward functions. Modulating masks, recently developed for classification, are particularly suitable to deal with such a large spectrum of task variations. In this paper, we adapted modulating masks to work with deep LRL, specifically PPO and IMPALA agents. The comparison with LRL baselines in both discrete and continuous RL tasks shows competitive performance. We further investigated the use of a linear combination of previously learned masks to exploit previous knowledge when learning new tasks: not only is learning faster, the algorithm solves tasks that we could not otherwise solve from scratch due to extremely sparse rewards. The results suggest that RL with modulating masks is a promising approach to lifelong learning, to the composition of knowledge to learn increasingly complex tasks, and to knowledge reuse for efficient and faster learning.
translated by 谷歌翻译
Optimal transport (OT) has become exceedingly popular in machine learning, data science, and computer vision. The core assumption in the OT problem is the equal total amount of mass in source and target measures, which limits its application. Optimal Partial Transport (OPT) is a recently proposed solution to this limitation. Similar to the OT problem, the computation of OPT relies on solving a linear programming problem (often in high dimensions), which can become computationally prohibitive. In this paper, we propose an efficient algorithm for calculating the OPT problem between two non-negative measures in one dimension. Next, following the idea of sliced OT distances, we utilize slicing to define the sliced OPT distance. Finally, we demonstrate the computational and accuracy benefits of the sliced OPT-based method in various numerical experiments. In particular, we show an application of our proposed Sliced-OPT in noisy point cloud registration.
translated by 谷歌翻译
在各种机器学习问题中,包括转移,多任务,连续和元学习在内,衡量不同任务之间的相似性至关重要。最新的测量任务相似性的方法依赖于体系结构:1)依靠预训练的模型,或2)在任务上进行培训网络,并将正向转移用作任务相似性的代理。在本文中,我们利用了最佳运输理论,并定义了一个新颖的任务嵌入监督分类,该分类是模型的,无训练的,并且能够处理(部分)脱节标签集。简而言之,给定带有地面标签的数据集,我们通过多维缩放和串联数据集样品进行嵌入标签,并具有相应的标签嵌入。然后,我们将两个数据集之间的距离定义为其更新样品之间的2-Wasserstein距离。最后,我们利用2-wasserstein嵌入框架将任务嵌入到矢量空间中,在该空间中,嵌入点之间的欧几里得距离近似于任务之间提出的2-wasserstein距离。我们表明,与最佳传输数据集距离(OTDD)等相关方法相比,所提出的嵌入导致任务的比较显着更快。此外,我们通过各种数值实验证明了我们提出的嵌入的有效性,并显示了我们所提出的距离与任务之间的前进和向后转移之间的统计学意义相关性。
translated by 谷歌翻译
沟通成为各种分布式机器学习设置中的瓶颈。在这里,我们提出了一个新颖的培训框架,可导致代理之间模型的高效通信。简而言之,我们将网络训练为许多伪随机生成的冷冻模型的线性组合。为了进行通信,源代理仅传输用于生成伪随机网络的“种子”标量以及学习的线性混合系数。我们的方法被称为Pranc,比Deep Models学习了近100美元的参数,并且在几个数据集和架构上仍然表现良好。 Pranc启用1)代理之间模型的有效通信,2)有效的模型存储,3)通过即时生成层的重量来加速推理。我们在CIFAR-10,CIFAR-100,TINYIMAGENET和IMAGENET-100上测试Pranc,并具有各种体系结构,例如Alexnet,Lenet,Resnet18,Resnet20和Resnet56,并显示出在这些基础数据集中的可满足性能的同时大大降低的,并显示出大量的降低。 。该代码可用\ href {https://github.com/ucdvision/pranc} {https://github.com/ucdvision/pranc}
translated by 谷歌翻译
从非平稳的输入数据流进行连续/终身学习是智力的基石。尽管在各种应用中表现出色,但深度神经网络仍容易在学习新信息时忘记他们以前学习的信息。这种现象称为“灾难性遗忘”,深深地植根于稳定性困境。近年来,克服深层神经网络中的灾难性遗忘已成为一个积极的研究领域。特别是,基于梯度投射的方法最近在克服灾难性遗忘时表现出了出色的表现。本文提出了基于稀疏性和异质辍学的两种受生物学启发的机制,这些机制在长期的任务上显着提高了持续学习者的表现。我们提出的方法建立在梯度投影内存(GPM)框架上。我们利用神经网络的每一层中的K-获奖者激活来为每个任务执行层次稀疏激活,以及任务间的异质辍学,鼓励网络在不同任务之间使用非重叠的激活模式。此外,我们引入了两个新的基准,用于在分配转移下连续学习,即连续的瑞士卷和Imagenet Superdog-40。最后,我们对我们提出的方法进行了深入的分析,并证明了各种基准持续学习问题的显着性能。
translated by 谷歌翻译
利用机器学习来促进优化过程是一个新兴领域,该领域有望绕过经典迭代求解器在需要接近实时优化的关键应用中引起的基本计算瓶颈。现有的大多数方法都集中在学习数据驱动的优化器上,这些优化器可在解决优化方面更少迭代。在本文中,我们采用了不同的方法,并建议将迭代求解器完全替换为可训练的参数集功能,该功能在单个feed向前输出优化问题的最佳参数/参数。我们将我们的方法表示为学习优化优化过程(循环)。我们显示了学习此类参数功能的可行性,以解决各种经典优化问题,包括线性/非线性回归,主成分分析,基于运输的核心和二次编程在供应管理应用程序中。此外,我们提出了两种学习此类参数函数的替代方法,在循环中有和没有求解器。最后,通过各种数值实验,我们表明训练有素的求解器的数量级可能比经典的迭代求解器快,同时提供了接近最佳的解决方案。
translated by 谷歌翻译
从集合结构的数据学习是一种基本上在机器学习和计算机视觉中的应用程序的重要问题。本文侧重于使用近似最近邻(ANN)解决方案,特别是地区敏感的散列来源的非参数和数据独立于无关的学习。我们考虑从输入集查询设置检索的问题。这样的检索问题需要:1)一种有效的机制来计算集合和2)的距离/异化,以及快速最近邻南搜索的适当数据结构。为此,我们提出切片 - Wasserstein将嵌入作为计算上高效的“Set-2-向量”机制,使下游ANN能够具有理论担保。该组元素被视为来自未知底层分布的样本,并且切片 - Wasserstein距离用于比较集合。我们展示了算法的有效性,表示在各种集合检索数据集上的设定局部敏感散列(Slosh),并将我们提出的嵌入方法与标准集嵌入方法进行比较,包括泛化均值(Gem)嵌入/池,具有额定排序池(FSpool )和协方差汇总并显示出检索结果的一致性。用于复制我们的结果的代码可在此处提供:\ href {https://github.com/mint-vu/slosh} {https://github.com/mint-vu/slosh}。
translated by 谷歌翻译
在包括生成建模的各种机器学习应用中的两个概率措施中,已经证明了切片分歧的想法是成功的,并且包括计算两种测量的一维随机投影之间的“基地分歧”的预期值。然而,这种技术的拓扑,统计和计算后果尚未完整地确定。在本文中,我们的目标是弥合这种差距并导出切片概率分歧的各种理论特性。首先,我们表明切片保留了公制公理和分歧的弱连续性,这意味着切片分歧将共享相似的拓扑性质。然后,我们在基本发散属于积分概率度量类别的情况下精确结果。另一方面,我们在轻度条件下建立了切片分歧的样本复杂性并不依赖于问题尺寸。我们终于将一般结果应用于几个基地分歧,并说明了我们对合成和实际数据实验的理论。
translated by 谷歌翻译
深度神经网络针对对抗性例子的脆弱性已成为将这些模型部署在敏感领域中的重要问题。事实证明,针对这种攻击的明确防御是具有挑战性的,依赖于检测对抗样本的方法只有在攻击者忽略检测机制时才有效。在本文中,我们提出了一种原则性的对抗示例检测方法,该方法可以承受规范受限的白色框攻击。受K类分类问题的启发,我们训练K二进制分类器,其中I-th二进制分类器用于区分I类的清洁数据和其他类的对抗性样本。在测试时,我们首先使用训练有素的分类器获取输入的预测标签(例如k),然后使用k-th二进制分类器来确定输入是否为干净的样本(k类)或对抗的扰动示例(其他类)。我们进一步设计了一种生成方法来通过将每个二进制分类器解释为类别条件数据的无标准密度模型来检测/分类对抗示例。我们提供上述对抗性示例检测/分类方法的全面评估,并证明其竞争性能和引人注目的特性。
translated by 谷歌翻译
We propose a general framework for unsupervised domain adaptation, which allows deep neural networks trained on a source domain to be tested on a different target domain without requiring any training annotations in the target domain. This is achieved by adding extra networks and losses that help regularize the features extracted by the backbone encoder network. To this end we propose the novel use of the recently proposed unpaired image-toimage translation framework to constrain the features extracted by the encoder network. Specifically, we require that the features extracted are able to reconstruct the images in both domains. In addition we require that the distribution of features extracted from images in the two domains are indistinguishable. Many recent works can be seen as specific cases of our general framework. We apply our method for domain adaptation between MNIST, USPS, and SVHN datasets, and Amazon, Webcam and DSLR Office datasets in classification tasks, and also between GTA5 and Cityscapes datasets for a segmentation task. We demonstrate state of the art performance on each of these datasets.
translated by 谷歌翻译